数学の世界では、ある関係は「絶対的」であることがあります。たとえば、円の半径が決まれば、その面積も必然的に決まります。しかし現実世界では、多くの関係は「曖昧なつながり」を持ちます。父親の身長が高い場合、子どもも高い傾向がありますが、それは一対一の対応とは限りません。これが相関関係魅力の源です。変数間には特定の傾向がある一方で、ランダムなばらつきも許容されます。散布図はこうした潜在的な傾向を捉えるための「顕微鏡」なのです。
核心概念の比較
相関関係 (Correlation) 是指变量之间存在不确定的联系。当一个变量取值确定时,另一个变量的取值仍具有随机性。而 関数関係 は決定論的であり、$y$ は完全に $x$ によって決まります。
散布図を観察することで 散布図 (Scatter Plot)、変数間の関係を直感的に判断できます:
- 正相関 (Positive): 全体的に「右上向き」に分布し、$x$ が増加するにつれて $y$ も増加する傾向がある。
- 負相関 (Negative): 整体呈“右下挫”,$x$ 增大时 $y$ 趋于减小。
- 線形相関: データポイントが直線の近くに密集している。
相関性は因果関係を意味しない!散布図で強い相関が示されたとしても、それは第三者の「共通原因」や単なる偶然によるものかもしれません。結論を導く前に、科学的な論理的推論の方が図の観察よりも重要です。
1. 多項式の各項を準備する:$x^2$ の正方形1個、$x$ の長方形3個、および$1\times1$ の単位正方形2個。
2. これらを幾何学的に組み合わせ始めます。
3. これらは完璧に大きな連続した長方形を形成しました!幅は $(x+2)$、高さは $(x+1)$ です。
問題1
変数間に関係はあるが、関数関係ほど強くはない、このような関係は何か?
因果関係
相関関係 (Correlation)
写像関係
独立関係
正解!相関関係とは、変数間の非決定論的な依存関係を表すものです。
誤り。関数関係は決定論的ですが、この不確実な関係は相関関係と呼ばれます。
問題2
正相関について、次のうち正しい記述はどれか?
散布図の点群は左上から右下へ伸びている
点は主に第2・第4象限に分布している
随 $x$ 增大,$y$ 呈现增加趋势
一方の変数がもう一方の変数の値を決定する
正解!正相関とは、2つの変数が同じ方向に変化することを意味し、散布図では右上方向に傾斜する形で表れます。
错误。正相关意味着随 $x$ 增大,$y$ 总体呈现增加趋势,且点主要分布在第一、三象限。
問題3
ある都市の高校数学統一テストの成績は正規分布 $N(75, 8^2)$ に従う。$16\%, 34\%, 34\%, 16\%$ の比率でA〜Dの4段階に分けられるとき、Bクラスの合格ラインの範囲はおよそどのようになるか?
$[67, 75)$
$[75, 83)$
$[83, 100]$
$[59, 67)$
正解!$N(\mu, \sigma^2)$ において、$P(\mu < X < \mu+\sigma) \approx 34\%$ です。$µ=75$, $σ=8$ とわかっているので、Bクラスは $[75, 75+8)$、すなわち $[75, 83)$ に対応します。
誤り。正規分布の性質から、$P(\mu < X < \mu+\sigma) \approx 34\%$ かつ $P(\mu-\sigma < X < \mu) \approx 34\%$ です。Bクラスは正の方向の$34\%$の区間に対応し、すなわち $75$ から $75+8$ までです。
問題4
次のどの変数の組み合わせが最も負の相関関係を示す可能性がありますか?
子の身長と父の身長
商品売上高と広告費
自動車所有台数と空気質指数 (AQI)
標高と大気圧
正解!標高が高くなるほど大気圧は低下するため、両者は負の相関関係にあります。
ヒント:負相関とは、一方が増加すると他方が減少することを意味します。標高が高くなると、酸素濃度と気圧の両方が低下します。
問題5
散布図の点がランダムに分布し、無秩序である場合、この2つの変数についてどのような推論ができますか?
線形相関
負相関
無相関
関数関係
正解!点が規則性を持たないことは、変数間に明確な統計的関連性がないことを示しています。
誤り。点が無秩序であることこそ、変数間に明確な法則性がない、つまり無相関であることを意味します。
問題6
標高と鳥類種数のデータに基づく:標高1000m以上では種数は約30〜37種、標高400〜800mでは約4〜17種。これは何を意味するか?
両者には負の相関関係がある
両者には正の相関関係がある
両者には決定論的な関数関係がある
標高は鳥類種数に影響しない
正解!データは標高が高くなるにつれて鳥類種数が全体的に増加する傾向にあることを示しており、これは正の相関関係です。
データを観察すると、高標高地域では種数が多く、低標高地域では種数が少ない。これは正の相関傾向を示しています。
問題7
「アヒルの数が多い村では乳児出生率も高いので、アヒルが子どもをもたらす」という推論の誤りはどこにあるか?
サンプルサイズが小さすぎる
相関性と因果性を混同している
データの記録ミス
負の相関を無視している
正解!このような「偽相関」は、通常「共通原因」(例:村の規模)によって生じており、2者間に直接的な因果関係があるわけではありません。相関性は因果性を意味しないのです。
誤り。データが正の相関を示しても、相関性は因果性を意味しません。これは論理的な誤謬です。
問題8
関数関係と相関関係の最も本質的な違いは何か?
関数関係はグラフで表現できるが、相関関係はできない
関数関係は決定論的であり、相関関係は非決定論的である
相関関係の方が関数関係より科学的である
線形関係のみが関数関係である
正解!決定性が両者の分岐点です。関数とは、一つの $x$ に対してただ一つの $y$ が対応するものです。
ヒント:円の面積の公式(決定論的)と身長と体重の関係(非決定論的)を考えてください。
問題9
次のどの記述が非線形相関に該当しますか?
散布図の点が直線の周囲に密集している
散布図の点が放物線のような分布傾向を示している
散布図の点が左下から右上への上昇直線的な傾向を示している
散布図の点の分布にはまったく規則性がない
正解!放物線、指数曲線などはすべて非線形相関に含まれます。
誤り。線形相関は直線の近くに点が集まる必要があります。曲線的な分布は非線形相関の特徴です。
問題10
単回帰モデルにおいて、理想的な残差プロットはどのようなものか?
残差が説明変数の増加とともに著しく増加する
残差の点が傾きがゼロでない直線上に分布している
残差の点がゼロを中心とした水平帯状領域内でランダムに散らばっている
すべての残差値はゼロでなければならない
正解!残差が規則性なく分布しているということは、モデルが線形情報を適切に捉えていることの証拠であり、残りの誤差はランダムであることを意味します。
誤り。残差に規則性(例:ホースト型)がある場合、モデルの仮定が崩れている可能性があります。理想的には、残差は規則性のない波動であるべきです。
チャレンジ:統計の罠と予測
相関関係の深層分析
状況1:アヒルのパラドックス
ある地域の5つの村の中で、3つの村はアヒルが多く、出生率が高い。2つの村はアヒルが少なく、出生率が低い。ある人は「アヒルが子どもをもたらす」と結論づけている。あなたはこれに同意しますか?
状況2:経済成長モデル
下表は1997〜2006年のある地域のGDPデータです。次の2点を検討する必要があります:(1) 線形モデルを使用できるか?(2) 2017年のGDPをどのように予測するか?
クエスチョン1
「アヒルが子どもをもたらす」という結論に対して、科学的な説明を述べてください。
標準的回答:
この結論に反対します。これは統計学における偽相関 (Spurious Correlation)に属します。アヒルの数と乳児出生率はデータ上で正の相関を示していますが、それらの間に直接的な因果関係はありません。この相関は「共通原因」によって生じている可能性が高いです。たとえば、村の地理的面積や人口規模などです。面積の大きい村は、アヒルが棲む広い湿原を持つ傾向があり、同時に人口基盤も大きいため、乳児出生数が多くなる傾向があります。相関性は因果性を意味しないので、「アヒルが子どもをもたらす」と結論づけることはできません。
この結論に反対します。これは統計学における偽相関 (Spurious Correlation)に属します。アヒルの数と乳児出生率はデータ上で正の相関を示していますが、それらの間に直接的な因果関係はありません。この相関は「共通原因」によって生じている可能性が高いです。たとえば、村の地理的面積や人口規模などです。面積の大きい村は、アヒルが棲む広い湿原を持つ傾向があり、同時に人口基盤も大きいため、乳児出生数が多くなる傾向があります。相関性は因果性を意味しないので、「アヒルが子どもをもたらす」と結論づけることはできません。
クエスチョン2
GDP予測タスクにおいて、散布図がGDPの成長速度がどんどん速くなり(指数成長の傾向)、このように見える場合、単回帰線形モデルを使用するのは適切でしょうか?
標準的回答:
不適切です。散布図に明らかな曲線的傾向(例:指数成長)が見られる場合、変数間には非線形相関関係が存在していることを意味します。この場合、強引に単回帰線形モデル(直線モデル)を使用すると、残差プロットに規則的な分布(例:U字型または逆U字型)が生じ、予測精度が大きく低下します。また、年々加速するGDPの成長特徴を正確に表現できなくなります。この場合には、データを対数変換して線形関係に変換するか、指数成長モデルを構築するべきです。
不適切です。散布図に明らかな曲線的傾向(例:指数成長)が見られる場合、変数間には非線形相関関係が存在していることを意味します。この場合、強引に単回帰線形モデル(直線モデル)を使用すると、残差プロットに規則的な分布(例:U字型または逆U字型)が生じ、予測精度が大きく低下します。また、年々加速するGDPの成長特徴を正確に表現できなくなります。この場合には、データを対数変換して線形関係に変換するか、指数成長モデルを構築するべきです。
✨ コアポイント
変数は相互依存し、一対一の対応ではない、散布図の傾向、真の姿を現す。左下から右上へ、正の関連、相関を因果と誤認しない。
💡 「決定論」を「傾向」と区別する
関数関係は $y=f(x)$ の決定論的対応であり、相関関係は「全体的な傾向+ランダムなばらつき」である。
💡 散布図の最初の直感
点群の「形」を観察する。直線に近いほど相関が強い、散らばっているほど相関が弱い。
💡 象限の法則
正の相関を持つ点は主に第1・第3象限(標本平均点を基準とする)に、負の相関を持つ点は主に第2・第4象限に分布する。
💡 隠れた変数に注意する
2つの変数が相関していると見えたとき、まず考えるべきは:本当に第三者の変数が裏で両者を同時に操作していないか?
💡 正規分布の経験則
在 $N(\mu, \sigma^2)$ 中,$1\sigma$ 区间约占 $68\%$,$2\sigma$ 约占 $95\%$。这是划定等级的重要依据。